切成薄片的相互信息(SMI)定义为在随机变量的一维随机投影之间的平均值(MI)项。它是对经典MI依赖的替代度量,该量子保留了许多特性,但更可扩展到高维度。但是,对SMI本身和其估计率的定量表征取决于环境维度,这对于理解可伸缩性至关重要,仍然晦涩难懂。这项工作将原始的SMI定义扩展到$ K $ -SMI,该定义将预测视为$ k $维二维子空间,并提供了有关其依赖性尺寸的多方面帐户。在2-Wasserstein指标中使用差分熵连续性的新结果,我们对Monte Carlo(MC)基于$ K $ -SMI的估计的错误得出了尖锐的界限,并明确依赖于$ K $和环境维度,揭示了他们与样品数量的相互作用。然后,我们将MC Integrator与神经估计框架相结合,以提供端到端$ K $ -SMI估算器,为此建立了最佳的收敛率。随着尺寸的增长,我们还探索了人口$ k $ -smi的渐近学,从而为高斯近似结果提供了在适当的力矩范围下衰减的残差。我们的理论通过数值实验验证,并适用于切片Infogan,该切片完全提供了$ k $ -smi的可伸缩性问题的全面定量说明,包括SMI作为特殊情况,当$ k = 1 $。
translated by 谷歌翻译
从模型分析和机器学习中的比较到医疗数据集集合中的趋势发现,需要有效地比较和表示具有未知字段的数据集跨越各个字段。我们使用歧管学习来比较不同数据集的固有几何结构,通过比较其扩散操作员,对称阳性定义(SPD)矩阵,这些矩阵与连续的拉普拉斯 - 贝特拉米操作员与离散样品的近似相关。现有方法通常假设已知的数据对齐,并以点数的方式比较此类运算符。取而代之的是,我们利用SPD矩阵的Riemannian几何形状比较了这些操作员并根据log-euclidean Metric的下限定义了新的理论动机距离。我们的框架有助于比较具有不同大小,功能数量和测量方式的数据集中表达的数据歧管的比较。我们的日志 - 欧几里德签名(LES)距离恢复了有意义的结构差异,在各种应用领域的表现都优于竞争方法。
translated by 谷歌翻译
了解深度神经网络的泛化是深度学习中最重要的任务之一。虽然已经取得了很大进展,但理论错误界限仍然往往与经验观察结果不同。在这项工作中,我们开发基于保证金的泛化界,其中边距是在从训练分布中采样的独立随机子集之间的最佳运输成本标准化。特别地,最佳运输成本可以被解释为方差的概念,其捕获学习特征空间的结构特性。我们的界限强大地预测了在大规模数据集上给定培训数据和网络参数的泛化误差。从理论上讲,我们表明特征的浓度和分离在泛化中起着至关重要的作用,支持文献中的经验结果。该代码可用于\ url {https:/github.com/chingyaoc/kv-margin}。
translated by 谷歌翻译
深度学习的最近历史一直是成就之一:从游戏中的人类胜利到图像分类,语音识别,翻译和其他任务的世界领先表现。但是,这一进展带来了对计算能力的渴望。本文分类了这种依赖性的程度,表明各种应用程序的进展非常依赖于计算能力的增加。推断向前的信仰表明,沿当前线的进步正在经济,技术和环境上迅速变得不可持续。因此,在这些应用程序中的持续进展将需要更大的计算方法,这要么必须从变化到深度学习或转移到其他机器学习方法。
translated by 谷歌翻译
In federated learning problems, data is scattered across different servers and exchanging or pooling it is often impractical or prohibited. We develop a Bayesian nonparametric framework for federated learning with neural networks. Each data server is assumed to provide local neural network weights, which are modeled through our framework. We then develop an inference approach that allows us to synthesize a more expressive global network without additional supervision, data pooling and with as few as a single communication round. We then demonstrate the efficacy of our approach on federated learning problems simulated from two popular image classification datasets. 1
translated by 谷歌翻译
多任务学习在NLP中是有用的,因为实际上是希望在一系列任务中有一个型号的单个模型。在医疗领域,对任务的顺序培训可能有时是培训模型的唯一方法,因为因为对原始(潜在敏感)数据的访问不再可用,或者只是由于联合再培训所固有的计算成本。然而,顺序学习固有的一个主要问题是灾难性的遗忘,即,当为新任务更新模型时,对先前任务的准确性大幅下降。弹性重量整合是最近提出的解决这个问题的方法,但是将这种方法扩展到实践中使用的现代大型模型需要对模型参数进行强烈的独立假设,限制其有效性。在这项工作中,我们应用了Kronecker分解 - 最近的方法可以放松独立假设 - 以防止在规模的卷积和变压器的神经网络中灾难忘记。我们展示了该技术对在三个数据集中的医疗实体链接的重要和说明性任务中的有效性,证明了在新的医疗数据可用时,用于对现有方法进行有效更新的技术的能力。平均而言,当使用基于BERT的模型时,所提出的方法将灾难性忘记减少51%,相比使用标准弹性重量固结的27%减少,同时保持与模型参数数量成比例的空间复杂性。
translated by 谷歌翻译